実験4: GPT-4Vを使ってDALL-E3で画像を作る(Image to Image)
背景
だが、まだ元画像との乖離があった。
実験4では、GPT-4Vで元画像のフィードバックを加えることで、出力結果がどう変わるかを実験する 実験方法
実験3の結果の続きを使う。
元画像を添付し、以下の指示を出す
フィードバックします。元画像はこちらです。上で作られた画像と何が違うか、比較してください。
ChatGPTから違いを説明した出力が得られるため、その後次の指示を出す。
オッケー、ではその違いを踏まえ、もう一度元画像のような画像を作ってください。
結果
Case1. 情報量の少ないシンプルな画像
https://scrapbox.io/files/655952662b412b001c287702.png
結果
https://scrapbox.io/files/655a0da297d4f2001be35a3e.png
この結果はどうなんだろう...評価が難しい。
左上の画像はだいぶ似ているが、右下が全く異なる。
おそらく、違いを説明してのフィードバックの出力がまちまちだったことが原因
GPT-4Vフィードバックは、振れ幅が大きくなるということか
めっちゃ似ることもあれば、全然似なくなることがある
実験3
https://scrapbox.io/files/6559848157594d001bdd0c89.png
実験2
https://scrapbox.io/files/655984cd688044001cfa5946.png
実験1
https://scrapbox.io/files/65597e1df8ce63001bb4b1a4.png
Case2. 情報量が普通の画像
https://scrapbox.io/files/65595279a251ab001b53ad25.jpg
結果
https://scrapbox.io/files/655a146af58cf3001b510875.png
Case1と同じで、出力の差が激しい
今までのどの実験より、ヌペットしたスタイルは似ている
一方で左下の被写体は女の子になっていたり、ドレスの色彩がバラバラだったり
GPT-4Vフィードバックをつけると、振れ幅が大きくなるということはいえそう
めっちゃ似ることもあれば、全然似なくなることがある
実験3
https://scrapbox.io/files/655a04c667c3d4001c0d8b8f.png
実験2
https://scrapbox.io/files/655977b17c65f9001b5fdf72.png
実験1:
https://scrapbox.io/files/655981593b8aed001c1e02b1.png
Case3. 情報量が多い画像
https://scrapbox.io/files/6559529206146d001b94d063.jpg
結果
https://scrapbox.io/files/655a27c1f507a3001cef543a.png
Case1,2と同様、画像のバリエーションが広がった
左上の2つはこれまでの実験とそんなに変わらないが、それ以外の6枚の画像は、かなり元画像に似ている
特に、下半分の4つの画像は、キャラクターの表情がかなり似ている
右下の画像では、日本語を再現しようと奮闘した様子が描かれている
実験3
https://scrapbox.io/files/655a07bcaba1d5001b393ffe.png
実験2
https://scrapbox.io/files/65597cadf0d190001df4ba23.png
実験1
https://scrapbox.io/files/65597d7c2b412b001c29c976.png
考察
かなり似てくる出力をしてくる時もあれば、全く異なる出力をすることも
大当たりから大外れまで。大当たりは、実験1-3のクオリティを遥かに凌駕する。
この出力の幅が生まれる原因は、GPT-4Vによるフィードバックの質に依存してそうである 結論として、このGPT-4Vフィードバックは、大当たりの画像を引きたいときに、やってみる価値がある 工数がかかってめんどくさいため、ルーチンのワークフローとしてはオーバーであろう